Поиск полиморфизмов

В этом практикуме мне была дана хромосома номер 14.

Подготовка референса и чтений.

Список использованных команд.

Команда Описание
hisat2-build chr14.fasta chr14_index Индексирование реферонсной последовательности. В результате было создано 8 файлов с расширением .ht2
fastqc chr14.fastq Анализ качества чтений. В результате работы получаем архив (.zip), который содержит отчет о программе в виде html файла
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 chr14.fastq chr14_trimmed.fastq TRAILING:20 MINLEN:50 Очистка чтений. Обрезали с конца нуклеотды с качеством ниже 20, и убрали все последовательности длиной менее 50 нк
hisat2 -x chr14_index -U chr14_trimmed.fastq -S chr14_align.sam --no-spliced-alignment --no-softclip --summary-file hisat_final.txt Триммированные чтения картированы на геном. -х – путь к индексу -U– путь к чтениям --no-softclip – запрет подрезания чтений --no-spliced-alignment – картирование без разрывов. Также результат был сохрнен в отдельный файл.
samtools view -b chr14_align.sam -o chr14_align.bam Перевод из .sam формата в .bam
sort chr14_align.bam chr14_sorted Сортировка выравниваний по координате в референсе
samtools index chr14_sorted.bam Индексирование
samtools flagstat chr14_sorted.bam Кол-во чтений, картированых на геном
samtools mpileup -uf chr14.fasta -go chr14_polymorf.bcf chr14_sorted.bam Создание файла с полиморфизмом в .bcf формате
bcftools call -cv chr14_polymorf.bcf -o chr14_polymorf.vcf Перевод из bcf в vcf формат
convert2annovar.pl -format vcf4 chr14_polymorf.vcf > chr14_polymorf.avinput Перевод vcf-файла в формат более удобный для программы annovar
annotate_variation.pl -out refgene -build hg19 chr14_polymorf.avinput /nfs/srv/databases/annovar/humandb.old/ Аннотация файла snp по refGene
-filter -out dbsnp -build hg19 -dbtype snp138 chr14_polymorf.avinput /nfs/srv/databases/annovar/humandb.old/ Aннотации файла с snp по базе данных dbsnp
annotate_variation.pl -filter -dbtype 1000g2014oct_all -buildver hg19 -out chr14_snp chr14_polymorf.avinput /nfs/srv/databases/annovar/humandb.old/ Aннотации файла с snp по базе данных 1000 genomes
annotate_variation.pl -regionanno -build hg19 -out chr14_gwas -dbtype gwasCatalog chr14_polymorf.avinput /nfs/srv/databases/annovar/humandb.old/ Aннотации файла с snp по базе данных GWAS
annotate_variation.pl -filter -dbtype clinvar_20150629 -buildver hg19 -out chr14_clinvar chr14_polymorf.avinput /nfs/srv/databases/annovar/humandb.old/ Aннотации файла с snp по базе данных Clinvar

Триммирование

Число чтений до триммирования: 8696

Число чтений после триммирования: 8562

Изначальное качество чтений достаточно хорошее(больше 20). Сравнив качество чтений до и после очистки можно заметить, что ничего особо не изменилось, только в некоторых местах качество стало немного лушче. Поэтому можно сказать, что можно было бы обойтись без триммирования.

картинка
картинка

Картирование

Число чтений картированных на геном= 99.75%. Ниже приведен результат работы программы.


8562 reads; of these:

8562 (100.00%) were unpaired; of these:

21 (0.25%) aligned 0 times

8539 (99.73%) aligned exactly 1 time

2 (0.02%) aligned >1 times

99.75% overall alignment rate

Можно сделать вывод, что качество картирования очень высокое.

Описание трёх полиморфизмов

Позиция в хромосоме Тип полиморфизма Референс Чтение Качество Глубина
81448224 Замена C T 26.0194 3
81448951 Вставка GAAAAAAAAAA GAAAAAAAAAAAA,GAAAAAAAAAAA,GAAAAAAAAAAAAA 84.4632 55
81452172 Замена G A 32.7667 2

Аннотация SNP

Я получила 87 snp (из них 63 транзиций и 24 трансверсии) и 5 инделей.

RefSeq в annovar делит SNP по положению: exonic(3), splicing(1), intronic(85), ncRNA(0), UTR5(0), UTR3(1), upstream(0), downstream(0), intergenic(0).

Попали в гены PPP2R5C, RNASE9, TSHR.

Cтрока в файле Ген Замена
1 RNASE9:exon4 nonsynonymous A G
51 TSHR:exon7 synonymous T C
89 PPP2R5C:exon16 nonsynonymous G C

RS имеют 83 SNP из 90 по аннотации dnsnp

Частота найденных пар

0.255471 - средняя частота по выдаче 1000genomes.

Клиническая аннотация

Посмотрим аннотацию GWAS. (в аннотации clinvar ничего нет)


gwasCatalog Name=Prostate cancer (gene x gene interaction) chr14 21024619 21024619 A G hom 221.999 37

gwasCatalog Name=Graves' disease chr14 81451229 81451229 C T hom 221.999 71

gwasCatalog Name=Autism chr14 102360745 102360745 T C het 225.009 46

Как видно, есть три snp, имеющих клиническое значение. Первый- рак простаты (NGRG2- tumor supressor), второй- базедова болезнь, и третий- аутизм (CINP играет роль в репликации ДНК).